Análisis de sentimientos de Twitter respecto a las votaciones presidenciales Colombia 2022

Objetivo

En este proyecto se realiza un ejercicio básico para efectuar la extracción de datos de un tema de interés en Twitter, comoo lo son las elecciones presidenciales en Colombia efectuadas el 29 de mayo de 2022, procesar los textos de 5000 tweets y así establecer cuál es la polaridad de cada uno de ellos, además de la generación de una nube de términos qué permita establecer las temáticas tratadas.

Importar las librerías requeridas para extraer la información de Twitter por medio de la API para desarolladores de Twitter

Brindar los tokens para logerase en la API de Twitter, estos tokens son obtenidos trás la creación del proyecto y herramienta en la página de desarrolladores de Twitter. Son únicos y personales, por lo que deben ser suministrados los otorgados en la página.

Verificar la conexión con Twitter por medio de la API.

Consulta de Tweets a partir de un hashtag o palabra, para este caso se hace uso de: #EleccionesColombia Dado que durante las elecciones presidenciales del día 29 de mayo de 2002 fué uno de los hashtag y palabras tendencia durante toda la jornada.

image.png

image-2.png

Consulta y visualización de los tweets

En nuestro caso necesitamos la información del texto del tweet para realizar el análisis, por lo que creamos un dataframe con esa columna, leyendo el archivo CSV previamente creado.

Definir una función para realizar la limpieza del texto de los Tweets, eliminando de estos simbolos como la @ y el #, además de las letras RT y los links.

Definir una función para la limpieza de emoticones

Creación de funciones para obtener la subjetividad y la polaridad de los Tweets

Para esto es necesario traducir a inglés el texto, dado que la biblioteca interpreta de mejor manera el lenguaje inglés.

Para el caso se realiza la traducción de español a inglés y la obtención de la subjetividad y polaridad para 200 registros, ya que he tenido inconvenientes para realizar la traducción de los 5000 tweets. Pero con el fin de mostrar la diferencia de los valores obtenidos, se muestra el ejercicio con una muestra de ellos y se da continuación con los valores sin traducción.

Obtención de subjetividad y polaridad con texto traducido al inglés (200 Tweets)

Asignación de polaridad. Indicamos según los valores obtenidos de polaridad del texto, si esta es positiva (mayor a cero), negativa (menor a cero) o si es neutra (igual a cero)

Mediante la aplicación de la función de polaridad del texto, podemos determinar si se considera que un texto tiene un sentimiento positivo, negativo o neutro. Por lo que un gráfico de torta nos podrá ayudar a visualizar la cantidad de sentimientos expresados en un tema.

Del gráfico podemos determinar que el sentimiento mostrado para los 200 tweets, a los cuales se les realizó la traducción y se obtuvo la polaridad del texto, es que el 52% de estos son considerados con una polaridad neutra, el 32% son tweets positivos acerca de la jornada electorial colombiana de 2022 y el 15% tienen algún componente negativo.

Obtención de subjetividad y polaridad con texto sin ser traducido (5000 Tweets)

Una vez realizado el análisis de sentimiento para los 200 tweets traducidos, se realiza el ejercicio con la totalidad de estos, para identificar el sentimiento global aunque las asignaciones de polaridad puedan no ser tan bien logradas al tratarse de texto en español.

Asignación de polaridad. Indicamos según los valores obtenidos de polaridad del texto, si esta es positiva (mayor a cero), negativa (menor a cero) o si es neutra (igual a cero)

Como podemos observar en este nuevo gráfico de los sentimientos de los tweets sin traducir, se muestra una enorme cantidad que son entendidos con una polaridad neutra, demostrando que la utilización de estos métodos básicos de medición de sentimientos, requieren de la traducción del texto a inglés con el fin de que sean mucho más acertadas las mediciones de polaridad.

Creación de nube de términos.

Otra herramienta normalmente utilizada en el análisis de sentimientos de texto es la nube de términos. Esta muestra de manera gráfica la frecuencia de la aparición de palabras en un texto dado. Lo que nos permite visualizar cuales fuerón las palabras más utilizadas por los colombianos el 29 de mayo en Twitter a tráves de #EleccionesColombia.

En esta primer nube de palabras podemos ver como se repiten conectores utilizados en nuestro idioma o también conocidas como palabras comunes (de, la ,lo, lo que, en la, y el, del, en su, Y, que se, etc.) que no nos ayudan a establecer los temas o palabras con un significado real.

Por lo que se debe realizar una limpieza adicional del texto.

De esta manera podemos ver como según la nube de términos, los colombianos a tráves de 5000 tweets con #EleccionesColombia estabán hablando acerca de temas como:

Conclusiones del análisis de sentimientos

Del ejercicio realizado, en el que se toman 5000 tweets del 29 de mayo de 2022 con el numeral #EleccionesColombia se pueden sacar las siguientes conclusiones:

  1. El 32% son tweets positivos acerca de la jornada electoral colombiana y el 15% tienen algún componente negativo. Dado que se utiliza una muestra de la totalidad de los trinos, se podría realizar un ejercicio en el que se extiende esta cantidad, para validar si durante toda la jornada se mantuvo esta polaridad.
  1. En el día de votaciones se estuvieron utilizando distintas palabras en twitter incluidas en #EleccionesColombia, al ser la muestra tomada de los tweets más recientes, es decir, los trinos realizados tras conocer los resultados de las elecciones, las palabras más utilizadas tienen que ver con el conocimiento de los candidatos a continuar en la segunda vuelta electoral.